分布式tf
准备tf.train.ClusterSpec 用来映射task到机器。
当通过tf.train.Server.create_local_server()时候,会返回如图log信息供参考
1 | >> server = tf.train.Server.create_local_server() |
查看server以及对应的targe信息
1 | >> print server.target |
data parallelism ,worker has same model with different batch size data
图内复制
in-graph replication
between-graph replication
图间复制
TensorFlowOnSpark
Yahoo!开源的TFoS,集中tf以及spark,tfos支持GPU/CPU集群上的分布式深度学习。
支持spark上的training、支持inference。通过如下步骤管理tf
a、在executor上launch tf,同时监听数据/控制流信息。
b、数据读取方式有两种:Reader和QueueRunner,QueueRunner是 tf提供数据读取接口
leverage tf的reader接口从hdfs上直接读取数据;使用feed_dict机制,将RDD发送到feed_dict上。